AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上

刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套 自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA), 撬开这个黑箱。

来自主题: AI技术研报
9001 点击    2026-05-08 14:33
号称1200万token上下文的模型来了,数据亮眼但疑点重重

号称1200万token上下文的模型来了,数据亮眼但疑点重重

号称1200万token上下文的模型来了,数据亮眼但疑点重重

当地时间 5 月 5 日,迈阿密一家名为 Subquadratic 的公司走出隐身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 称作“a major breakthrough in LLM intelligence”(LLM 智能领域的重大突破),

来自主题: AI资讯
7222 点击    2026-05-07 12:02
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强?是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据?先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。

来自主题: AI技术研报
7695 点击    2026-05-03 22:58
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!

来自主题: AI技术研报
5937 点击    2026-04-23 14:05
Karpathy知识库「LLM Wiki」火爆了,全网围观讨论

Karpathy知识库「LLM Wiki」火爆了,全网围观讨论

Karpathy知识库「LLM Wiki」火爆了,全网围观讨论

Karpathy 表示,大多数人使用 LLM 处理文档的方式,基本都类似于 RAG:你上传一组文件,模型在查询时检索相关片段,然后生成答案。这种方式是有效的,但问题在于每一次提问,模型都在从零重新发现知识。没有积累。

来自主题: AI资讯
7827 点击    2026-04-06 08:51
这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

这个「反人类」AI插件,专门让你体验DeepSeek宕机的感觉|附安装地址

官方宣传语:你是否隐隐担忧,自己或身边的人正在:参与一场席卷所有人的技能大退化?遭受 LLM 诱发的?一个名为 Sam Lavigne 的大学教授,最近发布并开源了一款名为「Slow LLM」的 AI 工具。

来自主题: AI资讯
7900 点击    2026-03-30 23:55
比现有框架快22倍,浙大开源EasySteer:高性能LLM Steering统一框架

比现有框架快22倍,浙大开源EasySteer:高性能LLM Steering统一框架

比现有框架快22倍,浙大开源EasySteer:高性能LLM Steering统一框架

在此背景下,浙江大学研究团队提出了 EasySteer——一个基于 vLLM 构建的高性能、可扩展 LLM Steering 统一框架。该框架通过与 vLLM 推理引擎的深度集成,相比现有 Steering 框架实现了 10.8-22.3 倍的推理加速,同时提供更细粒度的干预控制,并为八大应用场景提供了预计算 Steering 向量与完整复现示例,方便研究者快速上手和对照复现。

来自主题: AI技术研报
7922 点击    2026-03-22 09:35